中国部署审查机构打造避谈敏感词的人工智能

中国政府官员正在测试人工智能公司的大型语言模型，以确保他们的系统“体现社会主义核心价值观”。英国金融时报今天报道称，这是中国政府在人工智能领域的审查制度的最新扩展。

该报称据多位参与该过程的人士透露，中国国家互联网信息办公室（CAC）是一个强大的互联网监管机构，该机构已迫使字节跳动、阿里巴巴、Moonshot 和 01.AI 等大型科技公司和人工智能初创公司参加政府对他们的人工智能模型的强制性审查。

据知情人士透露，这项工作包括对法学硕士的答案进行批量测试，回答一系列问题，其中许多问题与中国的政治敏感性和国家主席习近平有关。

这项工作由CAC在全国各地的分支机构的官员开展，包括审查模型的训练数据和其他安全流程。

二十年前，中国引入了“防火墙”，封锁外国网站和其他被执政的共产党认为有害的信息，现在，中国正在建立世界上最严格的监管制度来管理人工智能及其生成的内容。

杭州一家人工智能公司的一位不愿透露姓名的员工表示，网信办“有一个专门的团队在做这件事，他们来到我们的办公室，坐在我们的会议室里进行审查”。

这位人士说，“我们第一次没有通过；原因不太清楚，所以我们不得不去找同行谈谈。”“这需要一点猜测和调整。我们第二次通过了，但整个过程花了几个月的时间。”

中国严格的审批程序迫使中国的人工智能团队迅速学会如何最好地审查他们正在构建的大型语言模型，多名工程师和业内人士表示，这项任务非常困难且复杂，因为需要用大量英语内容训练法学硕士。

北京一家顶级人工智能初创企业的员工表示：“我们的基础模型（在答案上）非常非常不受约束，因此安全过滤极其重要。”

过滤工作首先从训练数据中剔除有问题的信息，然后建立敏感关键词数据库。中国 2 月份发布的人工智能公司运营指南称，人工智能团体需要收集数千个敏感关键词和违反“社会主义核心价值观”的问题，例如“煽动颠覆国家政权”或“破坏国家团结”。敏感关键词应该每周更新一次。

中国人工智能聊天机器人的用户可以看到结果。大多数中国聊天机器人都会拒绝回答敏感话题，例如 1989 年 6 月 4 日发生了什么（天安门广场屠杀的日期）或习近平是否像网络迷因小熊维尼。百度的 Ernie 聊天机器人告诉用户“它尝试回答其他问题”，而阿里巴巴的统一千问则回答：“我还没有学会如何回答这个问题。我会继续学习，以便更好地为您服务。”

相比之下，北京方面推出了一款人工智能聊天机器人，该机器人以中国国家主席“习近平新时代中国特色社会主义思想”的新模型以及中国国家网信办提供的其他官方文献为基础。

但中国官员也热衷于避免开发回避所有政治话题的人工智能。据帮助科技公司驾驭这一过程的组织工作人员称，国家网信办已经对法学硕士在安全测试中可以拒绝的问题数量进行了限制。2 月份公布的准国家标准规定，法学硕士拒绝的问题数量不得超过 5%。

“在[CAC]测试期间，[模型]必须做出回应，但一旦上线，就没人看了，”上海一家互联网公司的开发人员表示，“为了避免潜在的麻烦，一些大型模型对与习近平有关的话题实施了全面禁令。”

业内人士以北京初创企业 Moonshot 发布的聊天机器人 Kimi 为例，说明了关键词审查过程，该机器人拒绝了大多数与习近平有关的问题。

但由于需要回答一些不太敏感的问题，中国工程师必须想办法确保法学硕士能够对“中国有人权吗？”或“习近平主席是一位伟大的领导人吗？”等问题给出政治正确的答案。

当英国《金融时报》向初创公司01.AI制作的聊天机器人提出这些问题时，其Yi-large模型给出了细致入微的回答，指出批评人士所说的“习近平的政策进一步限制了言论自由和人权，压制了公民社会”。但不久之后，机器人的这个回答消失了，取而代之的是：“非常抱歉，我无法提供您想要的信息。”

Chatie.IO 聊天机器人的人工智能专家 Huan Li 表示：“开发人员很难控制 LLM 生成的文本，因此他们构建了另一个层来实时替换响应。”

李说，团体通常使用分类器模型，类似于电子邮件垃圾邮件过滤器中的模型，将 LLM 输出分类到预定义的组中。他还说，“当输出落入敏感类别时，系统将触发替换。”

中国专家表示，TikTok 所有者字节跳动在创建能够熟练地重复北京观点的法学硕士方面取得了最大进展。复旦大学的一个研究实验室向这个聊天机器人提出了有关社会主义核心价值观的难题，结果显示，该机器人在法学硕士中以 66.4% 的“安全合规率”名列前茅，远远高于 OpenAI 的 GPT-4o 在同一测试中的 7.1% 的得分。

当被问及习近平的领导能力时，中国机器人向英国《金融时报》提供了习近平的一长串成就，并称习近平“无疑是一位伟大的领导人”。

在最近于北京举行的一次技术会议上，被誉为中国防火墙之父的方滨兴表示，他正在为法学硕士开发一套安全协议系统，希望该系统能够被中国的人工智能团体普遍采用。方滨兴说，“面向公众的大型预测模型需要的不仅仅是安全备案；它们需要实时在线安全监控，中国需要自己的技术道路。”

英国金融时报说，中国网信办、字节跳动、阿里巴巴、Moonshot、百度和零一智能均未立即回应该报的置评请求。

推荐阅读

科幻照进现实!国科大一学院更名“星际航行学院”(组图)

什么工作很难被AI取代?OpenAI前创始人:一个标准

它是一艘外星飞船?NASA公布“星际访客”最新图像